De l'arabe standard vers l'arabe dialectal : projection de corpus et ressources linguistiques en vue du traitement automatique de l'oral dans les médias tunisiens

نویسندگان

  • Rahma Boujelbane
  • Mariem Ellouze
  • Frédéric Béchet
  • Lamia Hadrich Belguith
چکیده

In this work, we focus on the problems of the automatic treatment of oral spoken in the Tunisian media. This oral is marked by the use of code-switching between the Modern Standard Arabic (MSA) and the Tunisian dialect (TD). Our goal is to build useful resources to learn language models that can be used in automatic speech recognition applications. As it is a variant of MSA, we describe in this paper an adjustment process of the MSA resources to the TD. A first evaluation in terms of lexical coverage and perplexity is presented. MOTS-CLÉS : corpus oral, dialecte tunisien, modèle de langue, ressources.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Étude et traitement automatique de l'anglais du XVIIe siècle : outils morphosyntaxiques et dictionnaires

RÉSUMÉ. Après avoir exposé la constitution du corpus, nous recensons les principales différences ou particularités linguistiques de la langue anglaise du XVII siècle, les analysons du point de vue morphologique et syntaxique et proposons des équivalents en anglais contemporain (AC). Nous montrons comment nous pouvons effectuer une transcription automatique de textes anglais du XVII siècle en an...

متن کامل

Toward an amazigh language processing

Since antiquity, the Amazigh heritage is expanding from generation to generation. In the aim of safeguarding it from being threatened of disappearance, it seems opportune to equip this language of necessary means to confront the stakes of access to the domain of New Information and Communication Technologies (ICT). In this context, and in the perspective to build tools and linguistic resources ...

متن کامل

Étude sur les portails et agrégateurs des ressources pédagogiques universitaires francophones en accès libre

A ces trois grands objectifs stratégiques, deux autres objectifs (ou exigences) d'ordre technologique et culturel sont également à prévoir dans la construction d'un portail francophone commun de ressources pédagogiques gratuites : 1. D'abord, une exigence technique (et technologique) de convergence et de cohérence avec les pratiques internationales dans la conception et la diffusion des ressour...

متن کامل

Example-based NLP for Minority Languages: Tasks, Resources and Tools

Dans cet exposé nous analysons la relation entre le traitement automatique des langues minoritaires et les approches au Traitement des Langues Naturelles. Nous donnons un apperçu des tâches qui ont été affrontées et des approches utilisées. Vu que les ressources linguistiques sont limitées (telles que les dictionnaires et les corpus), le MLP emploie souvent des approches basées sur des règles, ...

متن کامل

ORTOLANG an infrastructure for sharing of written and speech language resources (ORTOLANG : une infrastructure de mutualisation de ressources linguistiques écrites et orales) [in French]

Résumé. Nous proposons une démonstration de la Plateforme de l’Equipex ORTOLANG (Open Resources and Tools for LANGuage : www.ortolang.fr) en cours de mise en place dans le cadre du programme d’investissements d’avenir (PIA) lancé par le gouvernement français. S’appuyant entre autres sur l’existant des centres de ressources CNRTL (Centre National de Ressources Textuelles et Lexicales : www.cnrtl...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • TAL

دوره 55  شماره 

صفحات  -

تاریخ انتشار 2014